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摘 要 : 文章 在 “产业 融合 理论 ”的 基础 上 研究 基于 AI 语音 技术 (TTS、ASR) 
的 有 声 读物 出 版 ， 梳 理 AI 语音 读物 的 “内 容 ” “平台 ”“ 技 术 ” 三 种 产业 模式 ， 
分 析出 版 社 参 与 AI 语音 读物 产业 面临 的 问题 , 最 后 提出 对 于 出 版 社 开展 AI 语音 
读物 业务 的 建议 与 展望 。 
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近年 来 我 国 AI 语音 技术 进入 应 用 快速 落地 期 , 相 较 2016 年 之 前 在 情感 语音 
合成 与 自然 语义 理解 等 方向 取得 显著 突破 ,国内 外 相关 企业 都 纷纷 开放 语音 生态 
系统 ， 以 “产业 融合 ”产业 融合 的 方式 将 AI 语音 技术 应 用 于 各 种 场景 ， 并 且 在 
短视 频 创 作 、 虚 拟 偶像 〈 主 播 ) 、 智 能 客服 、 智 慧 教 育 、 智 能 汽车 等 行业 取得 成 
功 的 商业 应 用 。AI 语音 技术 的 两 大 分 文 ; 语音 合成 〈TTS: Text To Speech“ 从 
文本 到 语音 ”) 、 语 音 识 别 〈ASR: Automatic Speech Recognition“ 从 语音 到 
文本 ”) 的 技术 原理 使 其 天 然 地 适合 应 用 于 以 文字 编辑 为 工作 的 出 版 行业 。 在 快 
速 发 展 的 “声音 经 济 ” 中 ， 出 版 社 可 以 通过 应 用 AI 语音 技术 解决 音频 内 容 制作 
能 力 弱 的 问题 ， 以 极 低 的 成 本 快速 生成 人 耳 难 辨 真 伪 的 音频 内 容 ， 使 其 在 出 版 、 
网 络 音 视频 、AT 的 “产业 融合 ” 产 闻 融合 中 获得 更 大 发 展 空间 。 


一 、“ 产 业 融 合理 论 ” 视 角 下 AI 语音 读物 的 产业 模式 分 析 


AI 语音 读物 产业 是 “产业 融合 ”的 产物 ， 欧 洲 委 员 会 的 “ 绿 皮 书 ”定义 “ 产 
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业 融 合 是 产业 联盟 、 技 术 网 络 平台 、 市 场 和 产业 联盟 与 合并 三 个 角度 的 融合 ”。 
其 核心 理论 依据 是 在 全 球 化 、 信 息 化 现代 产业 背景 下 ， 新 生产 要 素 的 不 断 涌现 , 
即 一 包括 新 知识 、 新 技术 、 新 流程 在 内 的 新 生产 要 素 不 断 地 弥补 传统 资源 生产 要 
素 的 不 足 ， 或 是 相当 一 定 程度 地 减轻 对 传统 生产 要 素 的 依赖 。 麻 省 理工 学 院 媒 
体 实 验 室 的 Negrouponte 用 三 个 圆圈 来 描述 计算 计算 机 、 印刷 和 广播 三 者 的 技术 
边界 ， 认 为 三 个 圆圈 的 交叉 处 将 会 成 为 成 长 最 快 成 长 .最 多 创新 最 多 的 产业 方 回 
领域 。 根 据 借鉴 这 种 方法 ，AI 语音 读物 处 于 出 版 、 网 络 音 视 频 、AI 三 者 边界 的 
交叉 处 〈 详 见 图 1) 。 


AI 语音 读物 


图 1 = 出 版 、 网 络 音 视频 、AI 交叉 图 


根据 艾 瑞 网 《2021 年 中 国 网 络 音频 产业 研究 报告 》 显 示 中 国 网 络 音频 产业 
规模 预计 在 2022 年 达到 229 亿 元 , 其 中 有 声 读物 仍然 处 于 欣欣 向 荣 的 发 展 态势 ， 
并 且 AI 语音 与 真人 配音 呈现 并 行 发 展 的 趋势 。AI 语音 技术 是 AI 技术 最 早 应 用 
于 人 类 生产 和 生活 的 分 支 之 一 ， 其 中 语音 合成 〈TTS) 技术 适合 应 用 于 音频 内 容 
生成 ， 语 音 识 别 〈ASR) 技术 适合 应 用 于 语音 方式 交互 。 出 版 、 网 络 音 视 频 、AI 
在 AI 语音 读物 的 产业 的 话语 权 来 源 分 别 是 分 别 源 自 “内 容 “平台 ”“ 技 术 ”， 
因此 本 节 将 按照 该 逻辑 对 AI 语音 读物 产业 发 展 模式 划分 。 


1 European Commission. Green paper on the convergence of telecommunications media and information 
technology sectors, and the implications for regulation [R]. http: / www.ispo.ece.be, 1997. 

2 张 建 刚 , 王新华 ， 段 治平 . 产业 融合 理论 研究 述评 由 . 山东 科技 大 学 学 报 〈 社 会 科学 版 ) ，2010，12《〈01): 
73-78. 
3 胡 汉 辉 ， 邢 华 . 产业 融合 理论 以 及 对 我 国 发 展 信 息 产业 的 启示 叫 . 中 国 工业 经 济 ，2003 〈02 ) : 23-29. 


1.1“ 内 容 ” 模 式 ， 提 升 生产 效 率 ， 丰 富 表现 形式 


《2020 中 国 网 络 视听 发 展 研究 报告 》 通 过 调查 分 析 ， 认 为 “要 把 优质 内 容 
可 持续 供给 作为 重心 。 无 论 分 发 方式 如 何 ， 内 容 为 王 这 一 点 都 不 会 改变 ”。 在 全 
媒体 时 代 ，“ 内 容 ” 仍 然 是 核心 要 素 ， 有 声 读物 仅 是 内 容 众多 的 表现 形式 之 一 。 
而 在 “媒介 即 信息 ”的 语 境 下 ， 创 造 新 媒介 的 技术 对 内 容 生产 与 传播 的 改造 是 一 
个 炉 增 过 程 ， 即 由 简单 向 复杂 发 展 且 不 可 逆 , 出 版 社 使 用 AI 语音 技术 合成 音频 、 
制作 交互 已 经 成 为 一 种 轿 露 头角 的 必然 趋势 。AI 语音 技术 之 于 有 声 读 物 的 意义 
类 似 活字 印刷 到 机 械 印 刷 的 转变 ， 它 不 仅 飞 跃 性 的 提高 了 音频 内 容 的 生产 效率 ， 
也 丰富 了 内 容 的 声音 表现 效果 。 


抖 音 于 2022 年 4 月 开始 测试 类 似 有 声 书 的 “上 听 视 频 ” 功 能 : 把 视听 内 容 转 
为 音频 播放 模式 ， 并 且 用 户 在 锁 屏 或 切换 后 台 后 ， 仍 能 继续 收听 。 同 时 ， 内 容 创 
作者 可 以 借助 AI 语音 合成 工具 ， 快 速 将 自己 创作 的 文字 内 容 转 换 成 音频 内 容 。 
例如 ， 作 家 、 诗 人 、 短 视频 创作 者 “ 叙 疾 ”《〈 拌 音 号 : xuyi59) 把 AI 语音 技术 
合成 的 诗作 上 传 在 拌 音 平台 , 它们 的 点 赞 量 是 他 普通 图 文 作 品 的 200 倍 左右 。 此 
外 ，“ 喜 马 拉 雅 ”“ 番 若 畅 听 ” 等 网 络 音频 平台 均 上 线 了 大 量 由 AI 语音 合成 的 
有 声 读物 ， 其 中 包括 “四 大 名 车 ”等 经 典 作品 。 由 此 可 见 ， 出 版 社 可 以 通过 AI 
语音 技术 将 自身 擅长 的 文字 内 容 制 作成 音频 内 容 上 传 至 各 类 网 络 平台 , 不 仅 成 本 
低 、 效 率 高 、 效 果 好 ， 甚 至 可 以 获得 比 文本 内 容 更 好 的 传播 效果 。 


1.2“ 平 台 ” 模 式 : 构建 融 媒体 版 图 ， 增 强 传播 效能 


网 络 有 声 书 如 今 兼 具 移 动 性 和 伴随 性 的 特征 ， 在 场景 使 用 上 具有 明显 的 优 
势 ， 因 此 ， 如 “ 微 信 读书 ”“ 多 看 阅读 ”“ 番 茄 免费 小 说 ”等 网 络 阅 读 平 台 几 
乎 都 内 置 语音 合成 插件 来 实现 “从 文本 到 语音 ” (TTS:_Text To Speech) 的 听 
书 功能 。 相 比 于 真人 有 声 书 策划 、 录 制 、 后 期 、 审 听 漫 长 的 制作 周期 ， 以 及 
5000--15000 元 /小 时 的 制作 成 本 , 平台 的 听 书 功能 使 用 AI 语音 合成 技术 可 以 实 
时 合成 ， 边 际 成 本 接近 零 且 不 必 文 付 版 权 费用 。 在 数字 阅读 平台 上 ， 使 用 基于 
AI 语音 合成 技术 的 听 书 功能 正在 成 为 多 数 人 的 选择 ， 例 如 “ 微 信 读 书 ” 平 台 上 ， 


4 万 安 伦 ， 曹 楚 ， 周 家 以 . 阿 基 米 德 FM 有 声 书场 景 建构 的 得 失 思 考 册 . 科技 与 出 版 ，2018 (10) : 61-65. 


畅销 书 《 明 朝 那些 事 儿 》 当 日 (2022. 5. 10) 在 听 人 数 占 总 在 读 人 数 大 约 四 分 之 
一 。 用 户 是 否 使 用 听 书 功能 与 图 书 类 型 相关 ， 小 说 类 往往 使 用 率 较 高 ， 而 计算 机 
类 使 用 率 较 低 。 


AI 语音 技术 并 不 局 限于 数字 阅读 平台 ， 如 问答 社区 “ 知 乎 ”、 新 闻 媒 体 “ 财 
新 ”等 平台 也 全 方位 的 引用 AI 语音 技术 。 在 融 媒 体 与 声音 经 济 的 背景 下 ， 这 些 
原本 擅长 图 文 内 容 的 平台 通过 引入 技术 以 较 低 的 成 本 快速 搭建 起 自身 的 音频 传 
播 能 力 。 如 “ 财 新 ”在 其 平台 推出 基于 AI 语音 合成 技术 的 AI 主播 “AI 财 小 新 ” 
其 播音 体验 接近 真人 主播 ， 除 了 “ 财 新 FM” 引入 AI 语音 技术 外 ， 用 户 在 阅读 任 
意 一 篇 文章 时 都 可 以 在 右上 角 切 入 AI 播报 界面 。AI 语音 技术 不 仅 帮助 “ 财 新 ” 
实现 融 媒体 创新 , 也 有 助 于 其 增强 传播 效能 和 丰富 僵 利 模式 , 用户 可 以 在 更 多 场 
景 体验 内 容 服 务 和 付费 使 用 定制 化 的 AI 语音 功能 。 


1.3“ 技 术 ” 模 式 ， 阅读 场景 多 元 化 ， 交 互 体验 人 性 化 


1995 年 Don Norman 在 人 机 交互 大 会 〈CHI Conference) 提出 “用 户 体验 ” 
(User Experience) ， 即 “人 们 对 于 使 用 或 参与 产品 、 服 务 或 系统 所 产生 的 感 
知 和 回应 。”5 而 体验 设计 (Experience Design) 的 优 劣 影响 一 个 产品 的 成 败 。 
2011 年 “苹果 ”推出 语音 助手 Siri， 此 后 语音 交互 被 越 来 越 多 的 硬件 产品 采用 。 
从 AI 语音 识别 到 AI 语音 合成 构成 一 套 面 向 多 场景 、 人 性 化 的 语音 交互 方式 , 适 
合 应 用 于 有 声 读物 的 交互 与 生成 。 


市 场 上 基于 AI 语音 技术 的 有 声 读物 相关 硬件 产品 琳琅 满目 ， 按 照 使 用 需求 
划分 ， 有 面向 儿童 教育 的 阅读 机 器 人 《如 Luka Baby 读书 机 ) ， 面 向 数字 阅读 的 
电子 阅读 器 〈 如 科大 讯 飞 电子 书 ) ,面向 阅读 翻译 的 扫 译 笔 ( 如 有 道 词典 笔 ) 等 ; 
按照 使 用 场景 划分 ， 有 面向 家 庭 的 智能 音箱 (如 小 度 智能 音箱 ) ， 面 向 汽车 的 车 
载 智能 屏 〈 如 华为 智 意 屏 ) ， 面 向 虚拟 现实 的 VR 阅读 (如 Chimera Reader) 等 。 
通过 这 些 具 有 柑 入 AI 语音 交互 功能 技术 的 培 读 设备 一、 上 用 户 体 验 到 更 加 多 无 的 
均 读 场景 一 人 性 化 的 体验 设计 实现 使 和 有 有声 阅 读 实现 随时 随地 的 有 声 阅 读 ,用户 体 
验 到 更 多 元 化 的 阅读 场景 。 


5 Wikipedia. User Experience [EB/OL]. [2022-06-11]. https://en.wikipedia.org/wiki/User_experience. 
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二 、 出 版 社 参 与 AI 语音 读物 产业 面临 的 问题 


Alfonso 和 Salvatore 提出 “产业 融合 ”一 般 要 经 过 技术 融合 、 业 务 与 管理 
融合 、 市 场 融合 三 个 阶段 ， 这 上 几 个 阶段 它们 既 前 后 相持 衔接 一 也 本 能 是 同步 相 芋 
促进 的 。 同时 ， 实 现 “产业 融合 ”需要 满足 技术 融合 、 业 务 融合 、 市 场 融 合 、 
产业 管制 环境 制度 与 环境 的 变化 改善 四 个 条 件 。 根据 “产业 融合 ”的 阶段 与 条 
件 构建 出 版 社 发 展 AI 语音 读物 产业 的 问题 框架 〈 详 见 图 2) ， 并 以 此 为 基础 及 
分 制度 与 环境 、 业 务 与 管理 、 技 术 与 市 场 三 个 方面 详细 分 析出 版 社 发 展 AI 语音 
读物 面临 的 关键 问题 。 
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产业 基础 
、 制度 条 件 : 产业 管理 与 环境 有 


2.1 全 版 权 体 系 建设 滞后 制度 与 环境 


5 Alfonso G, Salvatore T. Does technological convergence imply convergence in markets? evidence from the 
electronics industry [J]. Research Policy 1998: 445-463. 
” 胡 汉 辉 ， 邢 华 . 产业 融合 理论 以 及 对 我 国 发 展 信 息 产 业 的 启示 叫 . 中 国 工业 经 济 ，2003 (02) : 23-29. 


著作 权 法 是 印刷 技术 的 产物 ， 其 产生 和 发 展 一 直 与 技术 的 进步 紧密 相连 ， 表 
现 为 著作 权 的 客体 不 断 增 加 和 对 作品 的 利用 方式 不 断 丰 富 。 基 于 AI 语音 技术 对 
作品 的 二 次 创作 在 我 国 现行 著作 权 法 下 仍 属于 模糊 范畴 。AI 语音 合成 是 否 侵犯 
作品 的 表演 权 或 复制 权 ， 实 时 和 非 实 时 语音 合成 在 法 律 界定 上 有 什么 不 同 ，AI 
语音 技术 完成 的 二 次 创作 音频 是 否 拥 有 著作 权 ，AI 语音 技术 模仿 某 一 真实 人 声 
创作 的 作品 著作 权 旭 谁 归 属 ? 以 上 问题 仍 未 形成 法 律 共识 。 由 于 缺少 清晰 的 法 律 
界定 ， 出 版 社 在 制作 和 运营 AI 语音 读物 的 过 程 中 更 容易 产生 经 济 纠纷 ， 沾 后 的 
著作 权 体 系 为 这 项 业务 增添 了 巨大 的 风险 。 


2.1.2 1IP 热潮 破坏 原 有 生态 ， 全 版 权 资源 库 建设 后 继 乏 力 


“内 容 产 业 ” 概 念 的 提出 是 “产业 融合 ”产业 融合 的 结果 ， 随 着 信息 技术 的 
发 展 和 互联 网 的 普及 ， 信 息 内 容 对 载体 的 依赖 大 大 减少 ， 内 容 以 多 种 媒介 形式 
存在 。 针 对 这 种 变化 ， 欧 洲 、 加 拿 大 、 澳 大 利 亚 等 地 区 和 国家 首先 提出 “内 容 产 
业 ” 的 概念 。”“ 内 容 产 业 ” 的 核心 是 IP， 围 绕 一 个 IP 可 以 进行 影视 剧 改 编 、 游 
戏 开 发 、 音 乐 创 作 、 动 漫 - 交 学 作品 二 次 元 创作 、 周 过 衍生 品 开发 等 多 种 文化 产 
声 的 资本 产业 运作 ， 从 笛 结 果 产 生 后 夫 更 大 的 经 济 效益 。 音频 作品 作为 一 种 以 
声音 为 表现 形式 的 内 容 形态 已 经 被 纳 为 IP 生态 产业 的 重要 一 环 一 ， 在 此 背景 下 
出 版 社 却 越 来 越 难 获 得 作者 的 全 版 权 授权 二 。 主 要 因为 原因 是 出 版 社 缺 乏 全 版 权 
运营 的 能 力 ， 或 是 者 优质 IP 在 出 版 前 已 授 出 其 他 权利 。 对 于 出 版 社 来 说 优质 IP 
是 核心 资源 也 是 稀缺 资源 ,围绕 它 可 以 开发 出 多 项 经 济 收益 。 但 当前 出 版 社 在 签 
新 书 时 往往 只 能 获得 图 书 出 版 授权 ， 和 缺乏 全 版 权 库 建 设 能 力 对 于 出 版 社 开 展 AI 
语音 读物 业务 犹如 无 米 之 炊 。 


2.2 全 平台 运营 水 平 低 效 业务 与 管理 


新 业务 的 开展 需要 持续 投入 大 量 的 专业 人 力 资 源 , 虽然 技术 进步 提升 了 工作 


8 李 明 德 ， 许 超 . 著作 权 法 [B]. 北京 : 法 律 出 版 社 ，2009. 
9 胡 汉 辉 ， 邢 华 . 产业 融合 理论 以 及 对 我 国 发 展 信息 产业 的 启示 串 . 中 国 工 业经 济 ，2003 (02) : 23-29. 
1 王志刚 ， 李 阳 冉 . 知识 管理 视角 下 网 络 文学 IP 生态 体系 重 构 []. 编辑 之 友 ，2021 (05) : 40-45. 


效率 , 但 新 技术 的 应 用 也 对 人 力 素质 提出 更 高 的 要 求 。 传 统 出 版 行业 属于 知识 密 
集 型 产业 ,聚集 了 大 量 优 秀 的 编校 人 才 , 但 在 数字 信息 时 代 技 术 与 运营 的 重要 性 
日 益 突 显 。 企 业 文化 缺乏 创新 性 、 人 力 资 源 成 本 上 升 、 人 力 管 理 缺 乏 激励 性 等 问 
题 使 传统 出 版 社 既 难以 吸引 新 型 人 才 ， 又 造成 原 有 优秀 人 才 流 失 , 长 此 以 往 恶 性 
循环 。 智 联 招聘 发 布 的 2021 年 第 四 季度 《中 国企 业 招聘 薪酬 报告 》 显 示 ， 出 版 
行业 平均 薪酬 为 9073 元 /月 , 在 48 个 行业 类 别 中 排名 35 位 , 整体 处 于 中 下 游 水 
平 。 在 人 力 资源 高 度 市 场 化 的 背景 下 ， 工 资 正 成 为 职业 选择 的 决定 性 因素 ， 出 版 
社 对 于 人 才 的 吸引 力 正 逐渐 下 降 。 而 AI 语音 读物 的 制作 与 运营 需要 有 技术 基础 
和 运营 经 验 的 人 才 ， 此 类 人 才 的 招聘 与 培训 需要 出 版 社 持续 投入 大 量 成 本 。 


2.2.2 运营 能 为 融合 出 版 增加 内 容 生 产 传 播 复杂 度 ， 全 平台 运营 难 管理 


融合 出 版 要 求 出 版 社 具备 “一 次 生产 、 多 次 加 工 、 多 功能 服务 、 多 载体 ( 汇 
道 ) 传播 ”的 能 力 ， 对 应 的 每 一 环节 都 需要 投入 具备 技术 或 经 验 的 专业 性 人 力 资 
源 。 其 中 多 功能 服务 与 多 载体 渠道) 传播 主要 指 “全 平台 运营 能 力 ”，AI 语 
音 读物 在 完成 制作 后 便 进入 运营 阶段 。 与 传统 的 图 书 发 行 不 同 , 没有 实体 虚拟 存 
在 的 AI 读物 属于 内 容 服 务 型 产品 ， 内 容 品 质 与 服务 体验 共同 决定 其 在 读者 心中 
的 价值 的 阅读 体验 。 并 且 它 的 传播 能 力 与 复制 〈 印 刷 ) 数量 无 关 ， 而 与 传播 的 平 
台 、 各 媒介 相关 ， 全 平台 运营 的 内 容 往 往 可 以 获得 更 好 的 传播 效果 。 与 全 平台 运 
营 能 力 相对 应 的 是 更 大 的 运营 团队 , 每 增加 一 个 传播 平台 或 媒介 时 运营 人 力 的 投 
入 也 需要 倍数 型 增长 。AI 语音 读物 仅 是 众多 内 容 形式 中 的 一 种 ， 中 小 型 出 版 社 
无 力 对 其 全 平台 运营 。 


2.3 产业 链 运行 机 制 不 畅 技术 与 市 场 


2.3.1 超级 科技 平台 强化 垄断 优势 ， 中 小 出 版 社 被 剥夺 话语 权 


2021 年 10 月，《 中 华人 民 共 和 国 反 垄断 法 (修正 草案 ) 》 进 行 初次 审议 ， 
现 已 实施 13 年 的 《 反 垄 断 法 》 迎 来 首次 修正 ， 释 放出 打击 平台 垄断 的 强 监 管 信 
号 。 得 益 于 我 国 对 新 业态 、 新 模式 秉持 包容 审慎 监管 的 态度 ， 互 联网 与 人 工 智 能 
等 产业 迅 独 发 展 ，AI 语音 读物 在 内 容 发 行 与 技术 支持 等 产业 链 环节 已 形成 数 个 


具有 垄断 优势 的 平台 。 超级 平台 市 场 势 力 过 于 强大 , 已 严重 危及 市 场 公 平 竞争 和 
技术 创新 ， 对 数字 平台 从 立 ( 修 ) 法 到 执法 加 强 监管 ， 已 成 全 球 共识 。 数量 众多 
的 中 小 型 出 版 社 和 图 书 公司 正在 产业 链 中 受到 强势 平台 的 倾 轧 ， 在 产业 链 上 游 
“ 阅 文 ”与 “晋江 ”两 个 平台 把 控 住 IP 的 输出 ，AI 语音 技术 服务 方面 “科大 讯 
飞 ” 基 本 处 于 一 家 独 大 地 位 ， 而 有 声 读物 数字 发 行 平台 也 基本 处 于 “BAT” 等 科 
技 巨 头 的 势力 范围 ， 在 超级 平台 面前 中 小 型 出 版 社 和 图 书 公 司 基 本 没有 话语 权 。 


2.3.2 产 灶 要 作 科技 巨头 蔓 


融合 出 版 改变 了 内 容 生产 ， 加 快 了 技术 融合 ， 丰富 了 传播 渠道 ， 增 加 了 服务 
类 型 ， 导 致 整个 产业 链 的 协作 分 工 日 益 复杂 化 ， 处 于 行业 中 游 的 出 版 社 将 面临 更 
高 难度 的 产业 协作 问题 。AI 语音 读物 产业 协作 要 求 产业 链 上 下 游 协 同 、 优 势 互 
补 ， 出 版 社 与 科技 平台 的 传统 合作 模式 基本 上 是 出 版 社 提供 内 容 , 科技 公司 提供 
技术 支持 , 平台 提供 流量 ,但 随 着 科技 平台 推行 内 容 生 态 战略 ， 其 业务 开始 向 上 
下 游 拓 展 ， 试 图 掌控 整个 产业 链 全 流程 以 获取 更 大 的 经 济 利润 。 例 如 ，“ 腾 讯 ” 
通过 在 内 容 生 态 上 的 布局 , 已 经 获得 AI 语音 读物 从 IP 到 制作 再 到 发 行 的 全 产业 
链 能 力 。AI 语音 读物 产业 在 发 展 初期 已 出 现 产 业 链 下 的 资源 马 太 效应 ， 出 版 社 
正在 产业 协作 的 过 程 中 被 边缘 化 。 


三 、 出 版 社 优化 AI 语音 读物 产品 的 路 径 


“CHESS 战略 ”是 “产业 融合 理论 ”的 经 典 模型 ， 阅 释 了 企业 为 实现 融合 发 
展 需 要 采取 的 措施 。“CHESS” 中 的 “C” 代 表 创 新 性 集成 ，“H” 代 表 横 向 组 织 
结构 ，“E” 代 表 产 业 规范 标准 的 设 定 ，“S” 代 表 规 模 经 济 与 范围 经 济 ，“S” 
代表 系统 化 聚焦 流程 。 基 于 “CHESS 战略 ”构建 出 版 社 融 合 发 展 AI 语音 读物 产 
业 模 型 ( 详 见 图 3) 并 有 具体 前 述 路 径 策略 ， 有 助 于 出 版 产业 与 高 新 产业 在 技术 与 
制度 创新 的 基础 上 交叉 、 渗 透 、 重 组 ， 形 成 新 型 内 容 产业 形态 。 


1 孙 晋 . 数字 平台 的 反 垄 断 监管 J]. 中 国 社会 科学 ，2021 (05) : 101-127+206-207. 


chinaXiv:202303.00727V1 
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图 3= 出 版 社 AI 语音 读物 “产业 融合 ”产业 融合 发 展 模型 图 


3.1 开发 迭代 化 ， 阶段 式 产品 优化 ， 提 升 效果 与 效率 


出 版 社 的 内 容 生产 节奏 相 比 其 他 新 兴 媒 体 较 慢 , 主要 生产 适合 深度 阅读 的 精 
品 内 容 , 一 本 图 书 从 选 题 到 发 行 短 则 数 个 月 长 则 数 年 ,而 且 版 本 更 新 以 年 为 单位 


甚至 不 会 更 新 版 本 。 但 信息 时 代 瞬 息 万 变 ， 内 容 具 有 很 强 的 时 效 性 ， 


读者 的 喜好 


与 需求 倒 逼 内 容 持 续 优 化 欠 代 , 技术 更 新 也 要 求 内 容 形 式 和 传播 方式 需要 不 断 提 
升 近 代 。 对 于 AI 语音 读物 ， 在 出 版 社 缺少 内 容 制作 经 验 ，AI 语音 技术 仍 未 完全 


成 熟 的 条 件 下 ， 需 要 出 版 社 通过 内 容 产 品 迭 代 的 方式 积累 制作 经 验 、 


适 配 技术 升 


级 ， 以 制作 出 不 断 满足 读者 新 需求 的 内 容 产品 。 相 较 于 传统 瀑布 模型 开发 方式 中 


以 完成 完整 的 系统 项 目 为 目标 , 达 代 化 方式 将 整个 项 目 目 标 按照 逻辑 


一 个 个 易于 执行 的 小 任务 。 通 过 和 迭代 化 的 开发 方式 可 以 快速 将 AI 语 


结构 划分 为 
首 读 物 推 向 


市 场 , 然后 根据 用 户 的 需求 反馈 不 断 达 代 系统 , 增加 新 的 功能 模块 , 实现 高 质量 、 


高 效率 的 AI 语音 读物 。 例 如 ， 中 信 出 版 集团 2017 年 开始 打造 的 “中 信 书 院 ” 最 
初 以 数字 阅读 为 主 ， 经 过 多 次 迭代 并 引入 科大 讯 飞 的 AI 语音 技术 ， 现 在 已 经 发 
展 成 为 包括 文字 、 音 频 、 视 频 的 全 形态 、 系 统 性 多 媒体 知识 服务 平台 ， 大 量 读者 
选择 付费 阅读 由 AI 语音 合成 技术 生成 的 有 声 读物 。 


3.2 经 营 差 异化 : 利用 长 尾 效应 与 头 部 精品 差异 化 竞争 


目前 真人 有 声 书 依然 主导 市 场 , 以 有 声 书 市 场 份额 占 比 最 大 的 平台 喜马拉雅 
为 例 ， 虽 然 其 上 线 了 大 量 由 AI 语音 技术 生成 的 有 声 书 ， 但 位 于 排行 榜 前 列 的 头 
部 作品 均 为 知名 主播 录制 ， 且 配音 演员 作为 卖点 之 一 被 体现 在 标题 上 。 此 外 , 在 
知识 付费 和 垂直 内 容 领 域 大 V 的 作用 难以 取代 , 真人 有 声 书 情感 细腻 的 听觉 体验 
和 更 为 自由 的 二 次 创作 对 于 AI 语音 技术 来 说 短期 难以 实现 。 因 此 ，AI 语音 读物 
的 商业 路 径 需要 采取 差异 化 策略 ， 利 用 其 低 成 本 、 短 周期 、 快 速 大 量 合成 的 优势 
主攻 中 腰部 和 尾部 作品 ， 这 一 策略 恰好 符合 长 尾 效应 (The Long Tail Effect ) 。 
主打 免费 音频 的 番茄 畅 听 ， 作 为 网 络 音频 赛 道 的 新 入 局 者 通过 积极 引入 AI 语音 
技术 获得 竞争 优势 ， 在 其 内 容 分 类 中 “真人 朗读 ”与 “AI 朗读 ”作为 重要 的 分 
类 标签 并 列 呈 现 排 布 ， 且 “AI 朗读 ”在 有 声 书 数量 、 收 听 人 数 、 评 分 三 个 重要 
旨 标 上 均 在 接近 “真人 朗读 ”。 出 版 社 应 该 将 储备 的 IP 资源 进行 划分 ， 将 头 部 
IP 自主 或 授权 第 三 方 录 制 成 真人 精品 有 声 书 ， 而 将 中 腰部 IP 低 成 本 、 大 批量 生 
成 AI 语音 读物 ， 以 实现 帕 累 托 最 优 (Pareto Optimality) 。 


3.3 业务 平台 化 : 构建 内 容 分 发 平台 ， 推 动 运营 全 面 化 


在 强调 信息 整合 与 价值 分 配 的 Web3. 0 时 代 ， 出 版 社 迫 切 需 要 构建 自主 的 内 
容 分 发 平台 ， 以 掌握 主动 权 降 低 对 超级 平台 的 依赖 。 目 前 出 版 社 构建 平台 主要 有 
两 条 路 径 : 一 是 借助 社交 媒体 的 流量 入 口 开 发 小 程序 ， 二 是 依靠 内 容 、 服 务 、 品 
牌 构建 网 站 (App) 平台 。 第 一 条 路 径 具 有 推广 成 本 低 、 开 发 门槛 低 、 无 须 用 户 
下 载 、 操 作 体验 佳 、 对 网 页 展示 兼容 性 强 等 优点 ， 但 在 借助 社交 媒体 流量 的 同 
时 也 会 加 深 对 其 依赖 ， 且 具有 入 口 深 、 功 能 简单 、 不 稳定 、 内 容 传播 效果 差 等 缺 


2 刘 越 . 基于 微 信 小 程序 的 应 用 在 医院 信息 系统 中 的 研究 册 . 世界 最 新 医学 信息 文摘 (连续 型 电子 期 刊 )， 
2020 (92) : 222-223. 


点 。 阿 拉丁 研究 院 发 布 的 《2021 年 小 程序 互联 网 发 展 白皮书 》 显 示 ， 全 网 小 程 
序数 量 已 超 700 万 ， 其 中 微 信 小 程序 开发 者 突破 300 万 ， 小 程序 DAU 已 超 4.5 
亿 ; 日 均 使 用 次 数 同比 增长 32%, 活跃 小 程序 则 增长 41%。 其 中 人 民 文 学 出 版 社 、 
中 华 书 局 、 高 等 教育 出 版 社 等 出 版 社 已 上 线 小 程序 , 整体 来 看 小 程序 较 适 合 出 版 
社 优 化 服务 和 促进 内 容 付 费 。 第 二 条 路 径 对 于 中 小 型 出 版 社 难度 较 高 ,并 不 适合 
所 有 类 别 的 出 版 社 , 需要 其 具有 提供 不 可 蔡 代 服务 或 商品 的 能 力 。 但 其 优势 也 是 
明显 的 ， 网 站 (App) 平台 的 建立 将 加 强 其 护城河 ， 例 如 高 等 教育 出 版 社 旗下 的 
“中 国 大 学 MO0C” 就 是 一 个 成 功 案例 ， 并 县 它 通过 应 用 AI 语音 识别 技术 为 音 视 
频 内 容 快 速生 成 字幕 。 些 外 但 是 , 构建 自主 内 容 分 发 平台 并 不 是 要 舍弃 由 互联 网 
巨头 控制 的 平台 ， 相 反 出 版 社 要 加 强 AI 语音 读物 的 全 平台 运营 能 力 ， 这 既 有 利 
于 增强 传播 效能 果 ， 也 有 助 于 遏制 超级 平台 的 垄断 。 


3.4 1P 产品 化 : 以 产品 思维 开展 营销 ， 与 分 发 平台 和 谐 共生 


“产品 经 理 ” 一 词 近年 来 频频 见 诸 于 编辑 出 版 领域 行业 。 产品 经 理 引 入 编辑 
出 版 领域 中 出 版 产业 一 是 融合 “产业 融合 ”发 展 的 产物 ， 也 是 内 在 运作 机 理 的 必 
然 要 求 。 虽然 图 书 营销 专员 与 图 书 产品 经 理 之 间 分 工 不 同 ， 但 畅销 书 的 成 功 需 
要 图 书 产 品 经 理 从 在 选 题 开发 到 售后 服务 的 整个 闭环 中 充分 考虑 营销 的 影响 。 AL 
语音 有 声 读物 的 产品 制作 创作 过 程 同 样 需要 充分 考虑 到 营销 环节 , 既是 为 了 最 大 
化 IP 的 商业 价值 也 是 为 了 增进 IP 的 持续 影响 力 。 微 信 、 抖 音 、 喜 马 拉 雅 等 大 平 
台 为 AI 语音 读物 的 传播 提供 了 更 具 效 能 的 渠道 , 提供 IP 内 容 的 出 版 社 与 提供 流 
量 的 平台 是 一 种 和 谐 共生 的 关系 。《2021 中 国 网 络 视听 发 展 研究 报告 》 显 示 ， 
喜马拉雅 的 用 户 渗透 率 达 到 67. 1%， 牢 牢 占据 着 在 线 音频 行业 第 一 梯队 的 地 位 ， 
全 端 平均 月 活跃 用 户 为 2. 68 亿 。 因此， 出 版 社 发 展 AI 语音 读物 同 真 人 有 声 书 一 
样 需 要 增加 在 喜马拉雅 FM 等 网 络 首 频 平台 的 内 容 分 发 ， 并 且 这 与 搭建 自主 的 内 
容 平台 不 冲突 。“ 产 业 融 合 ” 不 仪 从 微观 上 改变 了 产业 的 市 场 结构 和 产业 绩效 ， 
而 且 从 宏观 上 改变 了 一 个 国家 的 产业 结构 和 经 济 增长 方式 。 内 容 出 版 与 AI 技术 


3 阿拉 丁 研究 院 . 2021 年 小 程序 互联 网 发 展 白皮书 [EB/OL]. (2022-01-17)〉 [2022-06-11]. 
https://aldzs.com/viewpointarticle?id=16175. 
4 王建 ， 付 小 艳 . 数字 出 版 编辑 思维 转型 : 从 编辑 走向 产品 经 理 山 . 中 国 出 版 ，2019 (04) : 35-38. 

5 张 建 刚 , 王新华 ， 段 治平 . 产业 融合 理论 研究 述评 册 . 山东 科技 大 学 学 报 〈 社 会 科学 版 ) ，2010，12 (01): 
73-78. 


大 


“产业 融合 ” 既 可 以 减少 企业 成 本 ， 也 是 传统 产业 创新 的 重要 方式 和 手段 ， 有 利 
于 出 版 产业 结构 转换 升级 ， 提 高 国家 文化 竞争 力 。 


3.5 技术 服务 化 : 与 技术 企业 合作 共 赢 ， 支 持 技术 产品 服务 化 


“产业 融合 ” 产业 融合 发 生 的 基础 是 技术 进步 和 放松 管制 , 阿里 云 全 球技 术 
服务 总 经 理 李 津 提 出 “从 技术 走向 产品 ， 再 从 产品 走向 服务 是 所 有 技术 企业 的 必 
由 之 路 。” 产 业 互 联网 新 经 济 形态 正 在 形成 ,各 个 垂直 行业 的 产业 链 被 其 重 塑 和 
改造 , 出 版 行业 应 该 主动 利用 由 信息 技术 与 互联 网 平台 提供 的 技术 服务 产品 , 提 
升 技术 生产 要 素 在 其 内 容 生产 种 的 比例 ,通过 技术 创新 提升 出 版 社 生产 力 。 当 前 
技术 产品 服务 化 正 呈 现 出 技术 平台 化 、 云 端 化 、 标 准 化 、 基 础 化 ， 服 务 集成 化 、 
多 元 化 、 个 性 化 、 可 协同 、 跨 行业 的 特点 。“ 产 业 融 合 ” 产 添 融 合 改 变 了 企业 之 
间 的 竞争 合作 关系 ， 科 大 讯 飞 等 以 AI 语音 技术 为 核心 的 开放 平台 通过 提供 技术 
服务 方案 与 包括 出 版 行业 在 内 的 各 行 各 业 实现 合作 共 赢 。 应 用 于 AI 语音 读物 的 
技术 需要 具备 音频 采样 与 编码 、 语 音 识 别 数据 库 匹 配 、 语 音 转 文本 、 长 文本 理解 、 

吾 音 合成 、 自 动 化 后 期 的 能 力 ， 以 上 每 一 种 能 力 都 需要 拥有 先进 技术 储备 。 
例如 , 情感 语音 合成 需 将 文本 情感 与 声音 情感 匹配 ， 并且 为 声音 增加 符合 人 类 语 
言 习惯 的 停顿 、 重 音 、 语 调 、 语 速效 果 。 优 秀 的 合成 语音 可 以 超出 人 耳 对 于 声音 
情感 的 辨别 能 力 ， 目 前 情感 语音 合成 依然 是 行业 难题 ， 商 用 AI 语音 合成 技术 的 
情感 区 分 度 基本 处 于 8 种 及 以 下 。 由 此 可 见 AI 语音 技术 存在 极 高 的 技术 门槛 ， 
出 版 社 与 技术 企业 合作 共 赢 , 文 持 技术 产品 服务 化 成 为 必然 选择 例如 大 民 教 育 
出 版 社 与 科 夫 讯 改 合作 一 开发 教学 平台 网络 学 导电 子 书 包 等 ATF 语音 读物 。 
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